Profile PDP i ALE - Praca domowa 5

Autor: Bartosz Sawicki

Wczytywanie danych

Profile PDP

Wykres dla wielu zmiennych jest prostą równoległą do OX na poziomie średniej predykcji modeli. Oznacza to, że nie są one istotne w procesie podejmowania decyzji.

Dla lepszej czytelności wybierzmy zmienne, które mają ciekawe wykresy.

Okazało się, że jest stosunkowo niewielu klientów, którzy kontaktowali się z bankiem więcej niż 5 razy oraz że wszyscy z nich zrezygnowali z karty. Uważam, że są dwie możliwości:

  1. Naprawdę 6. kontakt z przedstawicielem banku jest punktem zwrotnym dla klienta i podczas spotkania dzieje się coś, co nie jest ujęte w zbiorze danych.
  2. Zbiór danych nie jest zrównoważony pod kątem tej zmiennej.

Profile ALE

W przypadku profili ALE większość wykresów także nie wnosi żadnej informacji. Dla uproszczenia wygenerujemy tylko istotne wizualizacje.

Porównanie PDP i ALE

Porównując analizy dwoma metodami, możemy sprawdzić czy model jest addytywny

XGBoost

Wykresy są równoległe, więc model nie wykrywa interakcji między zmiennymi

Random forest

W tym przypadku wykresy również są równoległe, zatem model Random Forest, przynajmniej dla najważniejszych zmiennych, jest addytywny.

Regresja logistyczna z L1

Tu spodziwanym wynikiem jest addytywność modelu z definicji regresji logistycznej.

Zgodnie z przewidywaniami model regresji liniowej jest addytywny.

Podsumowanie